home *** CD-ROM | disk | FTP | other *** search
/ TPUG - Toronto PET Users Group / TPUG Users Group CD / TPUG Users Group CD.iso / AMIGA / AMICUS / AMICUS02.ADF / C / sq.c < prev    next >
C/C++ Source or Header  |  1989-05-30  |  29KB  |  886 lines

  1. /* This program compresses a file without loosing information.
  2.  * The "usq" program is required to unsqueeze the file
  3.  * before it can be used.
  4.  *
  5.  * Typical compression rates are between 30 and 50 percent for text files.
  6.  *
  7.  * Squeezing a really big file takes a few minutes.
  8.  *
  9.  * Useage:
  10.  *      sq [file1] [file2] ... [filen]
  11.  *
  12.  * where file1 through filen are the names of the files to be squeezed.
  13.  * The file type (under CP/M or MS-DOS) is changed to ".SQ"; under UN*X,
  14.  * ".SQ" is appended to the file name. The original file name is stored
  15.  * in the squeezed file.
  16.  *
  17.  * If no file name is given on the command line you will be
  18.  * prompted for commands (one at a time). An empty command
  19.  * terminates the program.
  20.  *
  21.  * The transformations compress strings of identical bytes and
  22.  * then encode each resulting byte value and EOF as bit strings
  23.  * having lengths in inverse proportion to their frequency of
  24.  * occurrance in the intermediate input stream. The latter uses
  25.  * the Huffman algorithm. Decoding information is included in
  26.  * the squeezed file, so squeezing short files or files with
  27.  * uniformly distributed byte values will actually increase size.
  28.  */
  29.  
  30. /* CHANGE HISTORY:
  31.  * 1.3  Close files properly in case of error exit.
  32.  * 1.4  Break up long introductory lines.
  33.  * 1.4  Send introduction only to console.
  34.  * 1.4  Send errors only to console.
  35.  * 1.5  Fix BUG that caused a rare few squeezed files
  36.  *      to be incorrect and fail the USQ crc check.
  37.  *      The problem was that some 17 bit codes were
  38.  *      generated but are not supported by other code.
  39.  *      THIS IS A MAJOR CHANGE affecting TR2.C and SQ.H and
  40.  *      requires recompilation of all files which are part
  41.  *      of SQ. Two basic changes were made: tree depth is now
  42.  *      used as a tie breaker when weights are equal. This
  43.  *      makes the tree shallower. Although that may always be
  44.  *      sufficient, an error trap was added to cause rescaling
  45.  *      of the counts if any code > 16 bits long is generated.
  46.  * 1.5  Add debugging displays option '-'.
  47.  * 1.6  Fixed to work correctly under MP/M II.  Also shortened
  48.  *      signon message.
  49.  * 2.0  New version for use with CI-C86 compiler (CP/M-86 and MS-DOS)
  50.  * 2.1  Converted for use in MLINK
  51.  * 2.2  Converted for use with optimizing CI-C86 compiler (MS-DOS)
  52.  * 3.0  Generalized for UN*X use, changed output file naming convention
  53.  *
  54.  * 3.2  Ported to Amiga & Lattice C.  Combined all files
  55.  *      Rick Schaeffer [70120,174] 12/03/85
  56.  * 3.25 Lattice compilation warnings corrected : John Hodgson 1/14/86
  57.  */
  58.  
  59. #include <stdio.h>
  60.  
  61. /* eject
  62. eject */
  63.  
  64. /*
  65.  * The following define MUST be set to the maximum length of a file name
  66.  * on the system "sq" is being compiled for.  If not, "sq" will not be
  67.  * able to check for whether the output file name it creates is valid
  68.  * or not.
  69.  */
  70.  
  71. #define FNM_LEN 35
  72. #define UNIX                            /* comment out for CP/M, MS-DOS versions */
  73.  
  74. #define VERSION "3.2   12/03/85"
  75.  
  76. /* Definitions and external declarations */
  77.  
  78. #define RECOGNIZE 0xFF76        /* unlikely pattern */
  79.  
  80. /* *** Stuff for first translation module *** */
  81.  
  82. #define DLE 0x90
  83.  
  84. unsigned int crc;        /* error check code */
  85.  
  86. /* *** Stuff for second translation module *** */
  87.  
  88. #define SPEOF 256       /* special endfile token */
  89. #define NUMVALS 257     /* 256 data values plus SPEOF*/
  90. /* Definitions and external declarations */
  91.  
  92.  char     debug;  /* Boolean flag */
  93.  
  94. /* *** Stuff for first translation module *** */
  95.  
  96.  int likect;      /*count of consecutive identical chars */
  97.  int lastchar, newchar;
  98.  char state;
  99.  
  100. /* states */
  101.  
  102. #define NOHIST  0       /*don't consider previous input*/
  103. #define SENTCHAR 1      /*lastchar set, no lookahead yet */
  104. #define SENDNEWC 2      /*newchar set, previous sequence done */
  105. #define SENDCNT 3       /*newchar set, DLE sent, send count next */
  106.  
  107. /* *** Stuff for second translation module *** */
  108.  
  109. #define NOCHILD -1      /* indicates end of path through tree */
  110. #define NUMNODES (NUMVALS + NUMVALS - 1)        /* nbr of nodes */
  111.  
  112. #define MAXCOUNT 0xFFFF /* biggest unsigned integer */
  113.  
  114. /* The following array of structures are the nodes of the
  115.  * binary trees. The first NUMVALS nodes becomethe leaves of the
  116.  * final tree and represent the values of the data bytes being
  117.  * encoded and the special endfile, SPEOF.
  118.  * The remaining nodes become the internal nodes of the final tree.
  119.  */
  120.  
  121.  struct   nd {
  122.         unsigned int weight;    /* number of appearances */
  123.         char tdepth;            /* length on longest path in tre*/
  124.         int lchild, rchild;     /* indexes to next level */
  125. } node[NUMNODES];
  126.  
  127.  int dctreehd;    /*index to head node of final tree */
  128.  
  129. /* This is the encoding table:
  130.  * The bit strings have first bit in  low bit.
  131.  * Note that counts were scaled so code fits unsigned integer
  132.  */
  133.  
  134.  char codelen[NUMVALS];           /* number of bits in code */
  135.  unsigned int code[NUMVALS];      /* code itself, right adjusted */
  136.  unsigned int tcode;              /* temporary code value */
  137.  
  138.  
  139. /* Variables used by encoding process */
  140.  
  141.  int curin;               /* Value currently being encoded */
  142.  char cbitsrem;           /* Number of code string bits remaining */
  143.  unsigned int ccode;      /* Current code shifted so next code bit is at right */
  144. #define ERROR -1
  145. #define TRUE 1
  146. #define FALSE 0
  147.  
  148. main(argc, argv)
  149. int argc;
  150. char *argv[];
  151. {
  152.         int i,c;
  153.         char inparg[128];       /* parameter from input */
  154.  
  155.         debug = FALSE;
  156.         printf("File squeezer version %s (original author: R. Greenlaw)\n\n", VERSION);
  157.  
  158.         /* Process the parameters in order */
  159.         for(i = 1; i < argc; ++i)
  160.                 obey(argv[i]);
  161.  
  162.         if(argc < 2) {
  163.                 printf("Enter file names, one line at a time, or type <RETURN> to quit.");
  164.                 do {
  165.                         printf("\n*");
  166.                         for(i = 0; i < 16; ++i) {
  167.                                 if((c = getchar()) == EOF)
  168.                                         c = '\n';       /* fake empty (exit) command */
  169.                                 if((inparg[i] = c) == '\n') {
  170.                                         inparg[i] = '\0';
  171.                                         break;
  172.                                 }
  173.                         }
  174.                         if(inparg[0] != '\0')
  175.                                 obey(inparg);
  176.                 } while(inparg[0] != '\0');
  177.         }
  178. }
  179.  
  180. /* eject
  181. eject */
  182.  
  183. obey(p)
  184. char *p;
  185. {
  186.         char *q;
  187.         char *rindex();
  188.         char outfile[128];      /* output file spec. */
  189.  
  190.         if(*p == '-') {
  191.                 /* toggle debug option */
  192.                 debug = !debug;
  193.                 return 0;
  194.         }
  195.  
  196.         /* Check for ambiguous (wild-card) name */
  197.         for(q = p; *q != '\0'; ++q)
  198.                 if(*q == '*' || *q == '?') {
  199.                         printf("\nAmbiguous name %s ignored\n", p);
  200.                         return 0;
  201.         }
  202.         /* First build output file name */
  203.         strcpy(outfile, p);             /* copy input name to output */
  204.  
  205.         /* Find and change output file suffix */
  206.  
  207.         if ((q = rindex(outfile, '.')) == NULL) /* if no '.' in name */
  208.                 strcat(outfile, ".qq");
  209.         else {
  210.                 strcat(q, "    ");              /* extend end of string marks */
  211.                 if (*++q == ' ')                /* if no next character */
  212.                         *q = 'q';
  213.                 *++q = 'q';                     /* make file .?q? */
  214.                 if (*++q == ' ')                /* if no next character */
  215.                         *q = '\0';              /*   terminate early */
  216.                 else
  217.                         *++q = '\0';            /* terminate filename */
  218.         }
  219.  
  220.         squeeze(p, outfile);
  221. }
  222.  
  223. /* eject
  224. eject */
  225.  
  226. squeeze(infile, outfile)
  227. char *infile, *outfile;
  228. {
  229.         int c;
  230.         FILE *inbuff, *outbuff;         /* file buffers */
  231.         long    infilsiz;
  232.  
  233.  
  234.         printf("%s -> %s: ", infile, outfile);
  235.  
  236.         if(!(inbuff=fopen(infile, "rb"))) {
  237.                 printf("Can't open %s for input pass 1\n", infile);
  238.                 return 0;
  239.         }
  240.         if(!(outbuff=fopen(outfile, "wb"))) {
  241.                 printf("Can't create %s\n", outfile);
  242.                 fclose(inbuff);
  243.                 return 0;
  244.         }
  245.  
  246.         /* First pass - get properties of file */
  247.         crc = 0;        /* initialize checksum */
  248.         printf("analyzing, ");
  249.         init_ncr();
  250.         init_huff(inbuff);   
  251.         infilsiz = ftell(inbuff);
  252.         fclose(inbuff);
  253.  
  254.         /* Write output file header with decoding info */
  255.         wrt_head(outbuff, infile);
  256.  
  257.         /* Second pass - encode the file */
  258.         printf("squeezing,");
  259.         if(!(inbuff=fopen(infile, "rb"))) {
  260.                 printf("Can't open %s for input pass 2\n", infile);
  261.                 goto closeout;
  262.         }
  263.         init_ncr();     /* For second pass */
  264.  
  265.         /* Translate the input file into the output file */
  266.         while((c = gethuff(inbuff)) != EOF)
  267.                 putce(c, outbuff);
  268.         oflush(outbuff);
  269.         printf(" done.\n\t(%ld%% reduction.)\n",
  270.                 (infilsiz - ftell(outbuff))/(infilsiz / 100L));
  271. closeall:
  272.         fclose(inbuff);
  273. closeout:
  274.         fclose(outbuff);
  275. }
  276.  
  277. char *rindex(str,c)
  278. char  *str;
  279. char  c;
  280. {
  281.    int   i;
  282.  
  283.    for (i = strlen(str)-1; i >= 0; i--)
  284.       if (str[i] == c)
  285.          return(&str[i]);
  286.    return(NULL);
  287. }
  288.  
  289. /* First translation - encoding of repeated characters
  290.  * The code is byte for byte pass through except that
  291.  * DLE is encoded as DLE, zero and repeated byte values
  292.  * are encoded as value, DLE, count for count >= 3.
  293.  */
  294.  
  295. init_ncr()      /*initialize getcnr() */
  296. {
  297.         state = NOHIST;
  298. }
  299.  
  300. int
  301. getcnr(iob)
  302. FILE *iob;
  303. {
  304.         switch(state) {
  305.         case NOHIST:
  306.                 /* No relevant history */
  307.                 state = SENTCHAR;
  308.                 return lastchar = getc_crc(iob);   
  309.         case SENTCHAR:
  310.                 /* Lastchar is set, need lookahead */
  311.                 switch(lastchar) {
  312.                 case DLE:
  313.                         state = NOHIST;
  314.                         return 0;       /* indicates DLE was the data */
  315.                 case EOF:
  316.                         return EOF;
  317.                 default:
  318.                         for(likect = 1; (newchar = getc_crc(iob)) == lastchar && likect < 255; ++likect)
  319.                                 ;
  320.                         switch(likect) {
  321.                         case 1:
  322.                                 return lastchar = newchar;
  323.                         case 2:
  324.                                 /* just pass through */
  325.                                 state = SENDNEWC;
  326.                                 return lastchar;
  327.                         default:
  328.                                 state = SENDCNT;
  329.                                 return DLE;
  330.                         }
  331.                 }
  332.         case SENDNEWC:
  333.                 /* Previous sequence complete, newchar set */
  334.                 state = SENTCHAR;
  335.                 return lastchar = newchar;
  336.         case SENDCNT:
  337.                 /* Sent DLE for repeat sequence, send count */
  338.                 state = SENDNEWC;
  339.                 return likect;
  340.         default:
  341.                 puts("Bug - bad state\n");
  342.                 exit(1);
  343.         }
  344. }
  345.  
  346. /******** Second translation - bytes to variable length bit strings *********/
  347.  
  348.  
  349. /* This translation uses the Huffman algorithm to develop a
  350.  * binary tree representing the decoding information for
  351.  * a variable length bit string code for each input value.
  352.  * Each string's length is in inverse proportion to its
  353.  * frequency of appearance in the incoming data stream.
  354.  * The encoding table is derived from the decoding table.
  355.  *
  356.  * The range of valid values into the Huffman algorithm are
  357.  * the values of a byte stored in an integer plus the special
  358.  * endfile value chosen to be an adjacent value. Overall, 0-SPEOF.
  359.  *
  360.  * The "node" array of structures contains the nodes of the
  361.  * binary tree. The first NUMVALS nodes are the leaves of the
  362.  * tree and represent the values of the data bytes being
  363.  * encoded and the special endfile, SPEOF.
  364.  * The remaining nodes become the internal nodes of the tree.
  365.  *
  366.  * In the original design it was believed that
  367.  * a Huffman code would fit in the same number of
  368.  * bits that will hold the sum of all the counts.
  369.  * That was disproven by a user's file and was a rare but
  370.  * infamous bug. This version attempts to choose among equally
  371.  * weighted subtrees according to their maximum depths to avoid
  372.  * unnecessarily long codes. In case that is not sufficient
  373.  * to guarantee codes <= 16 bits long, we initially scale
  374.  * the counts so the total fits in an unsigned integer, but
  375.  * if codes longer than 16 bits are generated the counts are
  376.  * rescaled to a lower ceiling and code generation is retried.
  377.  */
  378.  
  379. /* Initialize the Huffman translation. This requires reading
  380.  * the input file through any preceding translation functions
  381.  * to get the frequency distribution of the various values.
  382.  */
  383.  
  384. init_huff(ib)          
  385. FILE *ib;
  386. {
  387.         int c, i;
  388.         int btlist[NUMVALS];    /* list of intermediate binary trees */
  389.         int listlen;            /* length of btlist */
  390.         unsigned int *wp;       /* simplifies weight counting */
  391.         unsigned int ceiling;   /* limit for scaling */
  392.  
  393.         /* Initialize tree nodes to no weight, no children */
  394.         init_tree();
  395.  
  396.         /* Build frequency info in tree */
  397.         do {
  398.                 c = getcnr(ib);        
  399.                 if(c == EOF)
  400.                         c = SPEOF;
  401.                 if(*(wp = &node[c].weight) !=  MAXCOUNT)
  402.                         ++(*wp);
  403.         } while(c != SPEOF);
  404. #ifdef DEBUG
  405.         pcounts();      /* debugging aid */
  406. #endif  
  407.         ceiling = MAXCOUNT;
  408.  
  409.         do {    /* Keep trying to scale and encode */
  410.                 if(ceiling != MAXCOUNT)
  411.                         printf("*** rescaling ***, ");
  412.                 scale(ceiling);
  413.                 ceiling /= 2;   /* in case we rescale */
  414. #ifdef DEBUG
  415.                 pcounts();      /* debugging aid */
  416. #endif
  417.  
  418.                 /* Build list of single node binary trees having
  419.                  * leaves for the input values with non-zero counts
  420.                  */
  421.                 for(i = listlen = 0; i < NUMVALS; ++i)
  422.                         if(node[i].weight != 0) {
  423.                                 node[i].tdepth = 0;
  424.                                 btlist[listlen++] = i;
  425.                         }
  426.  
  427.                 /* Arrange list of trees into a heap with the entry
  428.                  * indexing the node with the least weight at the top.
  429.                  */
  430.                 heap(btlist, listlen);
  431.  
  432.                 /* Convert the list of trees to a single decoding tree */
  433.                 bld_tree(btlist, listlen);
  434.  
  435.                 /* Initialize the encoding table */
  436.                 init_enc();
  437.  
  438.                 /* Try to build encoding table.
  439.                  * Fail if any code is > 16 bits long.
  440.                  */
  441.         } while(buildenc(0, dctreehd) == ERROR);
  442. #ifdef DEBUG
  443.         phuff();        /* debugging aid */
  444. #endif
  445.         /* Initialize encoding variables */
  446.         cbitsrem = 0;   /*force initial read */
  447.         curin = 0;      /*anything but endfile*/
  448. }
  449. /* ^L */
  450. /* The count of number of occurrances of each input value
  451.  * have already been prevented from exceeding MAXCOUNT.
  452.  * Now we must scale them so that their sum doesn't exceed
  453.  * ceiling and yet no non-zero count can become zero.
  454.  * This scaling prevents errors in the weights of the
  455.  * interior nodes of the Huffman tree and also ensures that
  456.  * the codes will fit in an unsigned integer. Rescaling is
  457.  * used if necessary to limit the code length.
  458.  */
  459.  
  460. scale(ceil)
  461. unsigned int ceil;      /* upper limit on total weight */
  462. {
  463.         int ovflw, divisor, i;
  464.         unsigned int w, sum;
  465.         char increased;         /* flag */
  466.  
  467.         do {
  468.                 for(i = sum = ovflw = 0; i < NUMVALS; ++i) {
  469.                         if(node[i].weight > (ceil - sum))
  470.                                 ++ovflw;
  471.                         sum += node[i].weight;
  472.                 }
  473.  
  474.                 divisor = ovflw + 1;
  475.  
  476.                 /* Ensure no non-zero values are lost */
  477.                 increased = FALSE;
  478.                 for(i = 0; i < NUMVALS; ++i) {
  479.                         w = node[i].weight;
  480.                         if (w < divisor && w > 0) {
  481.                                 /* Don't fail to provide a code if it's used at all */
  482.                                 node[i].weight = divisor;
  483.                                 increased = TRUE;
  484.                         }
  485.                 }
  486.         } while(increased);
  487.  
  488.         /* Scaling factor choosen, now scale */
  489.         if(divisor > 1)
  490.                 for(i = 0; i < NUMVALS; ++i)
  491.                         node[i].weight /= divisor;
  492. }
  493. /* ^L */
  494. /* heap() and adjust() maintain a list of binary trees as a
  495.  * heap with the top indexing the binary tree on the list
  496.  * which has the least weight or, in case of equal weights,
  497.  * least depth in its longest path. The depth part is not
  498.  * strictly necessary, but tends to avoid long codes which
  499.  * might provoke rescaling.
  500.  */
  501.  
  502. heap(list, length)
  503. int list[], length;
  504. {
  505.         int i;
  506.  
  507.         for(i = (length - 2) / 2; i >= 0; --i)
  508.                 adjust(list, i, length - 1);
  509. }
  510.  
  511. /* Make a heap from a heap with a new top */
  512.  
  513. adjust(list, top, bottom)
  514. int list[], top, bottom;
  515. {
  516.         int k, temp;
  517.         char cmptrees();
  518.  
  519.         k = 2 * top + 1;        /* left child of top */
  520.         temp = list[top];       /* remember root node of top tree */
  521.         if( k <= bottom) {
  522.                 if( k < bottom && cmptrees(list[k], list[k + 1]))
  523.                         ++k;
  524.  
  525.                 /* k indexes "smaller" child (in heap of trees) of top */
  526.                 /* now make top index "smaller" of old top and smallest child */
  527.                 if(cmptrees(temp, list[k])) {
  528.                         list[top] = list[k];
  529.                         list[k] = temp;
  530.                         /* Make the changed list a heap */
  531.                         adjust(list, k, bottom); /*recursive*/
  532.                 }
  533.         }
  534. }
  535.  
  536. /* Compare two trees, if a > b return true, else return false
  537.  * note comparison rules in previous comments.
  538.  */
  539.  
  540. char    /* Boolean */
  541. cmptrees(a, b)
  542. int a, b;       /* root nodes of trees */
  543. {
  544.         if(node[a].weight > node[b].weight)
  545.                 return TRUE;
  546.         if(node[a].weight == node[b].weight)
  547.                 if(node[a].tdepth > node[b].tdepth)
  548.                         return TRUE;
  549.         return FALSE;
  550. }
  551. /* ^L */
  552. /* HUFFMAN ALGORITHM: develops the single element trees
  553.  * into a single binary tree by forming subtrees rooted in
  554.  * interior nodes having weights equal to the sum of weights of all
  555.  * their descendents and having depth counts indicating the
  556.  * depth of their longest paths.
  557.  *
  558.  * When all trees have been formed into a single tree satisfying
  559.  * the heap property (on weight, with depth as a tie breaker)
  560.  * then the binary code assigned to a leaf (value to be encoded)
  561.  * is then the series of left (0) and right (1)
  562.  * paths leading from the root to the leaf.
  563.  * Note that trees are removed from the heaped list by
  564.  * moving the last element over the top element and
  565.  * reheaping the shorter list.
  566.  */
  567.  
  568. bld_tree(list, len)
  569. int list[];
  570. int len;
  571. {
  572.         int freenode;           /* next free node in tree */
  573.         int lch, rch;           /* temporaries for left, right children */
  574.         struct nd *frnp;        /* free node pointer */
  575.         char maxchar();
  576.  
  577.         /* Initialize index to next available (non-leaf) node.
  578.          * Lower numbered nodes correspond to leaves (data values).
  579.          */
  580.         freenode = NUMVALS;
  581.  
  582.         while(len > 1) {
  583.                 /* Take from list two btrees with least weight
  584.                  * and build an interior node pointing to them.
  585.                  * This forms a new tree.
  586.                  */
  587.                 lch = list[0];  /* This one will be left child */
  588.  
  589.                 /* delete top (least) tree from the list of trees */
  590.                 list[0] = list[--len];
  591.                 adjust(list, 0, len - 1);
  592.  
  593.                 /* Take new top (least) tree. Reuse list slot later */
  594.                 rch = list[0];  /* This one will be right child */
  595.  
  596.                 /* Form new tree from the two least trees using
  597.                  * a free node as root. Put the new tree in the list.
  598.                  */
  599.                 frnp = &node[freenode]; /* address of next free node */
  600.                 list[0] = freenode++;   /* put at top for now */
  601.                 frnp->lchild = lch;
  602.                 frnp->rchild = rch;
  603.                 frnp->weight = node[lch].weight + node[rch].weight;
  604.                 frnp->tdepth = 1 + maxchar(node[lch].tdepth, node[rch].tdepth);
  605.                 /* reheap list  to get least tree at top*/
  606.                 adjust(list, 0, len - 1);
  607.         }
  608.         dctreehd = list[0];     /*head of final tree */
  609. }
  610. /* ^L */
  611. char
  612. maxchar(a, b)
  613. char a, b;
  614. {
  615.         return a > b ? a : b;
  616. }
  617. /* Initialize all nodes to single element binary trees
  618.  * with zero weight and depth.
  619.  */
  620.  
  621. init_tree()
  622. {
  623.         int i;
  624.  
  625.         for(i = 0; i < NUMNODES; ++i) {
  626.                 node[i].weight = 0;
  627.                 node[i].tdepth = 0;
  628.                 node[i].lchild = NOCHILD;
  629.                 node[i].rchild = NOCHILD;
  630.         }
  631. }
  632.  
  633. init_enc()
  634. {
  635.         int i;
  636.  
  637.         /* Initialize encoding table */
  638.         for(i = 0; i < NUMVALS; ++i) {
  639.                 codelen[i] = 0;
  640.         }
  641. }
  642. /* ^L */
  643. /* Recursive routine to walk the indicated subtree and level
  644.  * and maintain the current path code in bstree. When a leaf
  645.  * is found the entire code string and length are put into
  646.  * the encoding table entry for the leaf's data value.
  647.  *
  648.  * Returns ERROR if codes are too long.
  649.  */
  650.  
  651. int             /* returns ERROR or NULL */
  652. buildenc(level, root)
  653. int level;/* level of tree being examined, from zero */
  654. int root; /* root of subtree is also data value if leaf */
  655. {
  656.         int l, r;
  657.  
  658.         l = node[root].lchild;
  659.         r = node[root].rchild;
  660. #ifdef DEBUG
  661.         if (debug) printf("level=%d,root=%d,l=%d,r=%d,tcode=%04x\n",level,root,l,r,tcode);
  662. #endif
  663.         if( l == NOCHILD && r == NOCHILD) {
  664.                 /* Leaf. Previous path determines bit string
  665.                  * code of length level (bits 0 to level - 1).
  666.                  * Ensures unused code bits are zero.
  667.                  */
  668.                 codelen[root] = level;
  669.                 code[root] = tcode & ((unsigned int)(~0) >> ((sizeof(int) * 8) - level));
  670. #ifdef DEBUG
  671.                 if (debug) printf("  codelen[%d]=%d,code[%d]=%02x\n",root,codelen[root],root,code[root]);
  672. #endif
  673.                 return( (level > 16) ? ERROR : 0);
  674.         } else {
  675.                 if( l != NOCHILD) {
  676.                         /* Clear path bit and continue deeper */
  677.                         tcode &= ~(1 << level);
  678.                         /* NOTE RECURSION */
  679.                         if(buildenc(level + 1, l) == ERROR)
  680.                                 return ERROR;
  681.                 }
  682.                 if(r != NOCHILD) {
  683.                         /* Set path bit and continue deeper */
  684.                         tcode |= 1 << level;
  685.                         /* NOTE RECURSION */
  686.                         if(buildenc(level + 1, r) == ERROR)
  687.                                 return ERROR;
  688.                 }
  689.         }
  690.         return NULL;    /* if we got here we're ok so far */
  691. }
  692. /* ^L */
  693. /* Write out the header of the compressed file */
  694.  
  695. wrt_head(ob, infile)
  696. FILE *ob;
  697. char *infile;   /* input file name (w/ or w/o drive) */
  698. {
  699.         int i, k, l, r;
  700.         int numnodes;           /* nbr of nodes in simplified tree */
  701.  
  702.         putwe(RECOGNIZE, ob);   /* identifies as compressed */
  703.         putwe(crc, ob);         /* unsigned sum of original data */
  704.  
  705.         /* Record the original file name w/o drive */
  706.         if(*(infile + 1) == ':')
  707.                 infile += 2;    /* skip drive */
  708.  
  709.         do {
  710.                 putce(*infile, ob);
  711.         } while(*(infile++) != '\0');
  712.  
  713.  
  714.         /* Write out a simplified decoding tree. Only the interior
  715.          * nodes are written. When a child is a leaf index
  716.          * (representing a data value) it is recoded as
  717.          * -(index + 1) to distinguish it from interior indexes
  718.          * which are recoded as positive indexes in the new tree.
  719.          * Note that this tree will be empty for an empty file.
  720.          */
  721.  
  722.         numnodes = dctreehd < NUMVALS ? 0 : dctreehd - (NUMVALS -1);
  723.         putwe(numnodes, ob);
  724.  
  725.         for(k = 0, i = dctreehd; k < numnodes; ++k, --i) {
  726.                 l = node[i].lchild;
  727.                 r = node[i].rchild;
  728.                 l = l < NUMVALS ? -(l + 1) : dctreehd - l;
  729.                 r = r < NUMVALS ? -(r + 1) : dctreehd - r;
  730.                 putwe(l, ob);   /* left child */
  731.                 putwe(r, ob);   /* right child */
  732.         }
  733. }
  734. /* ^L */
  735. /* Get an encoded byte or EOF. Reads from specified stream AS NEEDED.
  736.  *
  737.  * There are two unsynchronized bit-byte relationships here.
  738.  * The input stream bytes are converted to bit strings of
  739.  * various lengths via the static variables named c...
  740.  * These bit strings are concatenated without padding to
  741.  * become the stream of encoded result bytes, which this
  742.  * function returns one at a time. The EOF (end of file) is
  743.  * converted to SPEOF for convenience and encoded like any
  744.  * other input value. True EOF is returned after that.
  745.  *
  746.  * The original gethuff() called a seperate function,
  747.  * getbit(), but that more readable version was too slow.
  748.  */
  749.  
  750. int                             /*  Returns byte values except for EOF */
  751. gethuff(ib)
  752. FILE *ib;
  753. {
  754.         unsigned int rbyte;     /* Result byte value */
  755.         char need;        /* numbers of bits */
  756.  
  757.         rbyte = 0;
  758.         need = 8;               /* build one byte per call */
  759.  
  760.         /* Loop to build a byte of encoded data
  761.          * Initialization forces read the first time
  762.          */
  763.  
  764. loop:
  765.         if(cbitsrem >= need) {
  766.                 /* Current code fullfills our needs */
  767.                 if(need == 0)
  768.                         return (int)(rbyte & 0xff);
  769.                 /* Take what we need */
  770.                 rbyte |= ccode << (8 - need);
  771.                 /* And leave the rest */
  772.                 ccode >>= need;
  773.                 cbitsrem -= need;
  774.                 return (int)(rbyte & 0xff);
  775.         }
  776.  
  777.         /* We need more than current code */
  778.         if(cbitsrem > 0) {
  779.                 /* Take what there is */
  780.                 rbyte |= ccode << (8 - need);
  781.                 need -= cbitsrem;
  782.         }
  783.         /* No more bits in current code string */
  784.         if(curin == SPEOF) {
  785.                 /* The end of file token has been encoded. If
  786.                  * result byte has data return it and do EOF next time
  787.                  */
  788.                 cbitsrem = 0;
  789.  
  790.                 return (need == 8) ? EOF : (int)(rbyte & 0xff);
  791.         }
  792.  
  793.         /* Get an input byte */
  794.         if((curin = getcnr(ib)) == EOF)
  795.                 curin = SPEOF;  /* convenient for encoding */
  796.  
  797.         /* Get the new byte's code */
  798.         ccode = code[curin];
  799.         cbitsrem = codelen[curin];
  800.  
  801.         goto loop;
  802. }
  803.  
  804.  
  805. /* Get next byte from file and update checksum */
  806.  
  807. int
  808. getc_crc(ib)
  809. FILE *ib;
  810. {
  811.         int c;
  812.  
  813.         c = getc(ib);
  814.         if (c != EOF)
  815.                 crc += c;               /* checksum */
  816.         return c;
  817. }
  818.  
  819. /* Output functions with error reporting */
  820.  
  821. static char obuf[128];
  822. static int oblen = 0;
  823.  
  824. putce(c,  iob)
  825. int c;
  826. FILE *iob;
  827. {
  828.         obuf[oblen++] = c;
  829.         if (oblen >= sizeof(obuf)) oflush(iob);
  830. }
  831.  
  832. putwe(w,  iob)
  833. int w;
  834. FILE *iob;
  835. {
  836.         obuf[oblen++] = w;
  837.         if (oblen >= sizeof(obuf)) oflush(iob);
  838.         obuf[oblen++] = w >> 8;
  839.         if (oblen >= sizeof(obuf)) oflush(iob);
  840. }
  841.  
  842. oflush(iob)                             /* flush output buffer */
  843. FILE *iob;
  844. {
  845.         if (oblen && !fwrite(obuf, oblen, 1, iob)) {
  846.                 printf("Error writing output file\n");
  847.                 exit(1);
  848.         }
  849.         oblen = 0;
  850. }
  851.  
  852. /* Debugging aids for SQ and related modules */
  853.  
  854. pcounts()
  855. {
  856.         int i;
  857.  
  858.         if(debug) {
  859.                 printf("\nCounts after 1st algorithm and maybe scaling");
  860.                 for(i = 0; i < NUMVALS; ++i) {
  861.                         if(i%8 == 0)
  862.                                 printf("\n%4x  ", i);
  863.                         printf("%5u  ", node[i].weight);
  864.                 }
  865.         printf("\n\n");
  866.         }
  867. }
  868.  
  869. phuff()
  870. {
  871.         int i;
  872.  
  873.         if(debug) {
  874.                 printf("\nEncoding tree - root=%3d\n", dctreehd);
  875.                 for(i = 0; i < NUMNODES; ++i)
  876.                         if(node[i].weight != 0)
  877.                                 printf("%3d  w=%5u d=%3d l=%3d r=%3d\n", i, node[i].weight, node[i].tdepth, node[i].lchild, node[i].rchild);
  878.  
  879.                 printf("\nHuffman codes\n");
  880.                 for(i = 0; i < NUMVALS; ++i) {
  881.                         if(codelen[i] > 0)
  882.                                 printf("%3d  %4x l=%2d c=%4x\n", i, i, codelen[i], code[i]);
  883.                 }
  884.         }
  885. }
  886.